付録2. 量的形質の統計分析
https://gyazo.com/2f0bba5c1facdf9dff17f9854cf9adff
いくつかの重要な統計量
ここで$ Xは個々の測定値を表し、$ Nはそのような測定値の個数を表す
測定値が対になって現れる時(夫婦の測定値など)、夫の測定値を$ X、妻を$ Y、$ Nはそのような測定値の対の個数を表す
$ \Sigmaは和を表す
定義
平均
$ \overline X = \frac{\Sigma X}{N}\qquad(\mathrm{A2.1})
分散
$ V_X=\frac{\Sigma[(X-\overline X)^2]}{N-1} \qquad (\mathrm{A2.2})
共分散
$ C_{XY}=\frac{\Sigma[(X-\overline X)(Y-\overline Y)]}{N-1} \qquad (\mathrm{A2.3})
標準偏差
$ s_X=\sqrt{V_X}\qquad(\mathrm{A2.4})
相関
$ r_{XY}=\frac{C_{XY}}{s_Xs_Y}\qquad (\mathrm{A2.5})
回帰
$ b_{YX}=\frac{C_{XY}}{V_X}\qquad(\mathrm{A2.6})
$ \overline X = \frac{\Sigma X}{N}\qquad(\mathrm{A2.1})
いわゆる算術平均で、個々の測定値の和を測定値の個数で割ったもの
$ V_X=\frac{\Sigma[(X-\overline X)^2]}{N-1} \qquad (\mathrm{A2.2})
平均かれのずれの2乗の平均値
各々の測定値から平均に差し引き、その差を2乗し、これらの値の平均を求める
この場合、測定値の単位に難点が生ずる
分散は2乗で表されるから
一つのやり方は、分散の平方根をとり、標準偏差を用いること $ s_X=\sqrt{V_X}\qquad(\mathrm{A2.4})
しかし、量的形質の遺伝学では、このようなことは行われない
なぜなら、こうすることによって、もっと重要な性質である相加性が失われるから すなわち、分散は相加的であるが標準偏差はそうではない
そのうえ偶然だが、選択によって集団が変化する率は、集団の遺伝分散に比例するという性質がある
集団が変異に富めば富むほど、選択の働く余地が大きくなるということは明らかであるが、それを表す適切な量が分散であるということはすぐにはわからない
メンデル遺伝子が生まれるよりもずっと以前に、統計学者は変異を測定する方法を考案した
彼らがつくった方法が遺伝分析にちょうどうまく合っていた
式A2.2について一つわかりにくい点は、$ Nではなく$ N-1で割る点
もし、集団内のすべての個体を測定したとしたら$ Nで割ることになると思われるだろう
しかし、普通は標本についてだけ測定するので、$ \overline Xは正確には集団平均ではない
真の平均からのずれを測定したいところだが、真の平均値はわからないので、その代わりに標本の平均値を用いる
このために、ひずみが生ずるので、これを補正するために$ Nの代わりに自由度の数$ N-1で割る
$ C_{XY}=\frac{\Sigma[(X-\overline X)(Y-\overline Y)]}{N-1} \qquad (\mathrm{A2.3})
定義から明らかなように、測定値$ Xと$ Yとの間の類似性を表す尺度
もし、$ Xと$ Yとが同一であれば、共分散は分散と等しくなる
もし$ Xと$ Yとが独立であれば、共分散はゼロになる
逆方向のずれが打ち消し合うから
対になっている測定値が逆方向にずれる傾向があれば、共分散は負の値を取ることも可能
分散を求めるときと同じように、この場合も測定値が標本から得られたものであれば$ Nの代わりに$ N-1で割る
普通われわれは、その標本が得られた母集団について推定を行うことに興味を持っているのでそうする
共分散の測り方を変え、$ -1から$ +1の間にくる無次元の量にした方が便利なことが多い
$ r_{XY}=\frac{C_{XY}}{s_Xs_Y}\qquad (\mathrm{A2.5})
相関が$ 1
変数$ Xと$ Yの間に完全な相関がある
すなわち各々の$ Yの値は対応する$ Xの値と一定値だけ間違っている場合とか、$ Yが$ Xの定数倍である場合とかまたは両方が同時に成り立つ場合
相関が$ 0
$ Xと$ Yの間に何の関係もない
相関が負
Yが大きい時に、Xが小さくなる
$ b_{YX}=\frac{C_{XY}}{V_X}\qquad(\mathrm{A2.6})
$ Yの$ Xへの回帰は、独立変数$ Xと従属変数$ Yの関係についてのデータに最も合う直線の勾配
直線は$ Yの観察値と直線から予測される値とのずれの2乗を最小にするように決められる
もし2乗偏差を最小にする手順を用いると回帰方程式で与えられる勾配を持つ直線が得られることを示す数学的処理を見たければ、それほとんどどんな統計の教科書にも出ている
集団遺伝学に関連した場合の式の誘導と使用についてはCrow and Kimuraの本
回帰係数$ b_{YX}は$ Xがある量$ \Delta X(単位はセンチメーター、グラムなど)だけ増加した時$ Yはその$ b_{YX}倍だけ増加することが期待されるという意味をもつ
$ \Delta Y=b_{YX}\Delta X \qquad (\mathrm{A2.7})
https://gyazo.com/02e2082900f8e6ee28b4d21da1a8a1aa
全体と部分の共分散
いま、測定値$ Zは二つの成分$ Xと$ Yの和であり、二つの成分が独立であると仮定する
例えば、$ Xはトウモロコシの収量の遺伝的成分の測定値で、$ Yは環境の効果といったもの
この時の共分散
$ \begin{aligned}C_{XZ} &= \frac{\Sigma(X-\overline X)(Z-\overline Z)}{N-1} = \frac{\Sigma(X-\overline X)(X+Y-\overline{X+Y})}{N-1} \\ &= \frac{\Sigma(X-\overline X)[(X-\overline X)+(Y-\overline Y)]}{N-1} \\ &= \frac{\Sigma(X-\overline X)^2}{N-1} + \frac{\Sigma(X-\overline X)(Y-\overline Y)}{N-1} \qquad (\mathrm{A2.8}) \end{aligned}
上の式で、$ Xと$ Yは独立なので2番目の項は平均すればゼロになる
和の分散
もし$ Z=X+Yであれば次の式が得られる
$ \begin{aligned}V_Z &= \frac{\Sigma(Z-\overline Z)^2}{N-1}=\frac{\Sigma[(X-\overline X)+(Y-\overline Y)]^2}{N-1} \\ &= \frac{\Sigma(X-\overline X)^2}{N-1} + \frac{2\Sigma(X-\overline X)(Y-\overline Y)}{N-1} + \frac{\Sigma(Y-\overline Y)^2}{N-1} \\ &= V_X+2C_{XY}+V_Y \qquad (A2.9) \end{aligned}
もし$ Xと$ Yが独立であれば、$ C_{XY}=0となり、したがって、和の分散は単に分散の和になる
これを量の数が二つより多い場合に拡張するのは簡単
すなわち和の分散は分散の和にすべての共分散の2倍を加えたもので、もし共分散がすべてゼロであればこれは単に分散の和になる
これらの式を用い表現型の差を遺伝および環境に基づく原因に配分することを考えてみよう
相加的になるようにデータを変換すること
平均値が非常に異なる系統を交配した時、その雑種は両種の算術平均より幾何平均にずっと近いことがしばしば観察される このことはその形質に関与している遺伝子が相加的ではなくむしろ相乗的に働くことを示している これはあたかもトウモロコシの草丈について特定の遺伝子が1インチ高さを増すのではなく、1%高くするというようなもの
このことは次のように考えれば理にかなっている
すなわち、ある酵素を置き換えた時、ネズミでもゾウでも同一グラムだけ体重を増すとは考えられないから
実際には遺伝学者は幾何平均を用いたり、その他の遺伝子作用の特別な様式に関連した特殊な平均値を用いるようなことはしない
その代わりもとのデータを変換する
相乗的な遺伝子作用の場合には、もとの観察値そのものを用いる代わりに、その対数を用いる 対数を加えることは元の観察値をかけ合わせることと同等なので、相加性に基づく統計法が利用できるようになる
量的形質の遺伝の研究者は、データが相加的となるような何らかの変換を見出す
すべての統計的な処理は変換されたデータを用いて行われる
その後で必要であれば最終値をもとの単位に(例えば逆対数をとることにより)変換することができる
もし両親の違いが小さければこのような変換は重要ではない
例えばトウモロコシの二つの系統の収量が1エーカーあたり90ブッシェルと110ブッシェルだとすると、算術平均は100で幾何平均は99.5なので、これはほとんどの場合、問題にするほどの違いではない
広義の遺伝率
もしある個体が集団平均より背が高ければ、平均との偏差の一部は遺伝子型によるもので一部は環境によるもの
いま、次のように定義する
$ M=集団の平均測定値
$ P=特定の個体の表現型値(測定値)
$ H=その個体の遺伝子型値
ここで、遺伝子型に基づく作用と環境の影響は独立であると仮定する
すなわち、遺伝子型と環境の相互作用または共分散が存在しないと仮定する
これらの値は集団平均からのずれ(偏差)で表すのが最も便利で、このずれを小文字を用いて表すことにする
https://gyazo.com/6e09d5d080d10dcdde572aa8a9c81daf
ある個体の表現型のずれ$ pは遺伝子型値のずれ$ hと環境に基づくずれ$ eの和
$ p=h+e \qquad(\mathrm{A2.10})
集団内の全個体(またはそれから抽出した標本)の測定値の分散を測ることができる
分散の相加性により次の式が成り立つ
$ V_p=V_h+V_e\qquad(\mathrm{A2.11})
言葉で表すと表現型値分散は遺伝子型値分散と環境分散の和に等しい
広義の遺伝率は次のように定義される
$ H_B=\frac{V_h}{V_p}\qquad(\mathrm{A2.12})
別のやり方でも定義できる
もし$ pが与えられたとすると$ hの期待値は回帰方程式A2.7によって与えられる
この式から$ hの期待値は次のようになる
$ E(h)=b_{hp}P
しかし
$ \begin{aligned}b_{hp}&=C_{hp}/V_p(式A2.6による)なので \\ &=V_h/V_p (式A2.8による) \\ &=H_B(式A2.12による) \end{aligned}
したがって
$ H_B=b_{hp}\qquad(\mathrm{A2.13})
広義の遺伝率の推定
広義の遺伝率を推定する最も直接的な方法は、遺伝的に同一な個体の集まりについて分散を測定すること
このような個体の集まりの分散は環境によるもの
この分散を任意交配集団の分散から差し引けば、遺伝子型分散が得られる
人類集団では最良の情報は独立な環境で育てられた一卵性双生児から得られる 一対の一卵性双生児について表現型値のずれ$ pおよび$ p'は、$ h+eおよび$ h+e'と表される
ここで$ eと$ e'は$ hとは独立で、お互い同士も独立
$ \begin{aligned}C_{PP'}&=\frac{\Sigma pp'}{N-1} \\ &= \frac{\Sigma(h+e)(h+e')}{N-1} \end{aligned}
$ h^2以外の積はすべて平均がゼロになるので、
$ = \frac{\Sigma h^2}{N-1}=V_h, r_{PP'}=r_{pp'}=\frac{C_{pp'}}{V_p}
$ V_p=V_p'だから
$ =\frac{V_h}{V_p}=H_B\qquad(\mathrm{A2.14})
したがって、独立な環境で育てられた一卵性双生児についての広義の遺伝率は相関係数で与えられる
狭義の遺伝率
もしすべての遺伝子が厳密に相加的に働くとし(優性もエピスタシスもないとする)、さらに環境の影響もないとすれば、子の予測値の平均は両親の平均値と同一となる https://gyazo.com/1c079727992a04860c347f8cc055c545
$ gは遺伝子または相加的な値のずれ
$ dは優性およびエピスタシスによるずれ
分散の成分は次のようになる
$ V_p=V_g+V_d+V_e\qquad(\mathrm{A2.15})
表現型分散=遺伝子または相加的成分+優性およびエピスタシス成分+環境成分
狭義の遺伝子率は次の式によって定義される
$ H_N=\frac{V_g}{V_p}\qquad(\mathrm{A2.16})
これは分散のうちで相加的な成分の割合を表すもので、したがって親から子へ直接伝えられる分散の割合を表す
式A2.13と似たやり方で次の式が得られる
$ H_N=b_{gp}\qquad(\mathrm{A2.17})
狭義の遺伝率を推定するのに近縁個体間の相関を用いることができる
もし、遺伝子が完全に相加的に働けば、近縁個体間の相関は単に近縁者間で共有する遺伝子の割合になる
したがって、狭義の遺伝率は観察された相関係数と共有する遺伝子の割合との比
単一直系の近縁者に対してはこの割合は親縁係数の2倍 したがって次の式が得られる
$ H_N=\frac{観察された相関}{理論的相関}=\frac{観察された相関}{2F_{JK}}\qquad(\mathrm{A2.18})
相互作用と共分散
式A2.10をもっと現実に合うように表すと
$ p=h+e+i\qquad(\mathrm{A2.19})
ここで最後の項は相互作用、すなわち$ hと$ eの間の非相加性を表す
分散成分を用いて表せば次のようになる
$ V_p=V_h+V_e+V_i+2C_{he}\qquad(\mathrm{A2.20})
最後の二つの項は遺伝子型値と環境の効果の間の相互作用による分散および遺伝と環境の共分散の2倍を表す
最後の項は式A2.9から得られる